import requests      #引入request库
from bs4 import BeautifulSoup
###以笔趣阁《圣域》为目标的爬取
url = "https://www.xbiquge.la/13/13959/"
#UA伪装   让浏览器识别为用户而非pac
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36"}
#通过F12来查看是get还是post等
page_res = requests.get(url,headers=headers).text.encode("ISO-8859-1")
#lxml 需要用pip来安装  lxml是关于python的BeautifSoup的解释器
soup = BeautifulSoup(page_res,"lxml")  #这是使用的浏览器的源代码，也可使用本地的上传
list = soup.select(".box_con dl dd ")   #一步一步拿到url 和 名称，这个时候还没有转码
f = open("./xs.text","w",encoding="utf-8")   #关于文件操作可以去这个网站看https://www.liaoxuefeng.com/wiki/1016959663602400/1017607179232640
#再通过循环获取全部章节的url
for li in list :
    try:
        title = li.a.string
        title_url = "https://www.xbiquge.la"+li.a["href"]  #主要分析目录的url和点击章节后章节的url    li.a["href"]就是获取<a>之间的href的
        title_url_text = requests.get(url=title_url,headers=headers).text.encode("ISO-8859-1")
        title_pupli = BeautifulSoup(title_url_text,"lxml")
        title_text = title_pupli.find("div",id="content")
        content = title_text.text
        f.write(title+":"+content+"\n")
        print(title,"爬取成功......")
    except:
        pass






















